查看原文
其他

RPA与生成式AI融合的三种方向

The following article is from AI大模型应用实践 Author 曾经的毛毛

在上一篇(认识与探索大模型时代的RPA应用及进化 【上】)中,我们简单普及了RPA的概念与基础技术,并且基于开源框架构建了一个RPA机器人演示了RPA流程自动化的基本过程。虽然传统RPA仍然是一个以UI自动化为主的智能技术,但是随着深度学习等AI技术的不断发展,RPA也在不断尝试利用新的AI技术来弥补自身的不足,比如借助OCR技术的自动文档处理等。而随着生成式AI的火爆出圈(Gen-AI),RPA与基于大模型的生成式AI之间又会擦出怎样的火花呢?

本文试图探讨大模型时代RPA与生成式AI融合与相互促进的三种主要方向与场景。

01

LLM增强的智能RPA

在自动化领域,RPA与新爆发的生成式AI都是强大的技术,都可以用来实现自动执行重复耗时的任务。但是,传统RPA擅长处理结构化与规则明确简单的流程,而在非结构化数据处理、动态上下文适应、智能决策等能力上有欠缺;而基于LLM的生成式AI则具备了强大的自然语言理解与推理能力。因此如果将两者融合,则可以实现更加智能化、更具适应能力、更高效的自动化流程方案,更好地应对复杂的任务场景与数据,拓展RPA自动化的边界,实现增强的RPA机器人。

  • RPA认知增强。利用GenAI给RPA带来认知自动化,机器人不仅是根据规则执行任务,更可以进行智能决策、处理非结构化数据、更好适应上下文。


  • 客户体验优化。通过聊天机器人使用GenAI来理解客户意图,并调用RPA机器人无缝自动地完成任务。


  • 智能文档处理。对于文档密集型的任务,借助于GenAI可以更好地从非结构化文档中提取与分析数据,提高文档密集型任务的可操作性、准确性与效率。


  • 预测性RPA任务。利用GenAI实现智能预测并决定启动RPA自动化任务的时机,从而降低企业成本,如智能决策启动自动化维护RPA的时间。


  • 利用LLM提升RPA的低代码能力。利用LLM强大的代码输出能力,可以简化RPA开发过程中的部分代码任务,提高低代码能力。


以一个客户电子邮件协助处理的RPA机器人来说:电子邮件内容是一个典型的非结构化数据内容,借助于LLM的理解能力,可以让RPA机器人具备更好的智能认知与动态响应能力,根据邮件的反馈内容、甚至客户情绪等作出合适的后续响应动作,相比传统基于规则的RPA机器人来说,显然具备了更高的认知能力与动态适应能力。

此外,借助LLM实现的RPA增强的一些场景包括:

  • 金融机构利用RPA进行自动化交易过程中,利用LLM进行欺诈检测。

  • 电子商务公司利用RPA进行订单处理时,利用LLM来实现客户推荐并撰写个性化营销邮件。
  • 企业利用RPA机器人来处理客户查询、反馈与投诉,利用LLM理解客户自然语言描述的问题并做针对性的处理。
  • HR利用RPA机器人做自动化的简历投递查询与处理,利用LLM识别非结构化文档内容,并智能判断简历匹配度。
  • 财务部门利用RPA机器人进行财务报销与发票审核,利用多模态模型自动识别与提取发票图像信息以用于审核。

02

RPA与AI Agent的协作

AI Agent作为目前生成式AI炙手可热的焦点领域,带来了更多智能化的自动化任务的可能。那么作为自动化流程的两种不同形态的技术,自然也有着相互融合与协作的可能。

在前面的文章中我们介绍了一些常见的AI Agent基础类型,其中有一种是能够灵活调用外部工具API的ToolAgent,那么在RPA的应用场景中,很显然存在一种可能的融合模式:将RPA的自动化流程作为一个Tool提供给AI Agent使用,AI Agent在完成人类任务的过程中智能的识别与调用RPA的自动化流程,也就是RPA Agent模式。

一个典型的RPA自动化流程机器人与AI Agent融合的RPA Agent架构与交互流程可能如下:

在这个架构中:

  • AI Agent通过前端UI(基于自然语言)发生客户交互,借助LLM识别客户需求与意图,比如“需要申请一台笔记本电脑”。

  • AI Agent识别意图后,会自动判断使用工具箱中的何种工具(API),并智能提取工具的输入参数,比如判断出需要调用“笔记本电脑申请的RPA自动化流程”,输入的参数为员工的Email、笔记本型号等。
  • AI Agent通过RPA系统的开放API来触发RPA自动化流程。这类API可以由RPA产品直接提供;也可以自行开发触发RPA流程的API。
  • 借助RPA的API,触发自动化流程的robot运行。如果robot运行在本地,可以直接激活运行;如果robot运行在远程,可能需要借助必要的Agent来实现远程robot的调度运行。


当然,这是一个通过对话式的AI Agent来调用RPA自动化流程实现协作的例子。很显然,既然AI Agent能够调用RPA自动化流程,那么RPA在完成任务的过程中也可以调用AI Agent,只需要把AI Agent的调用暴露成接口即可通过自然语言来触发Agent的运行,其原理与RPA Agent类似,此处不再展开。

03

基于LMM的RPA智能导航

RPA本质上是一种人类操作仿真与UI自动化的技术,虽然其对后端系统的侵入性与耦合性很低,但是在前端却有着较大的应用耦合性。实施过RPA项目的可能都经历过:Web应用升级、浏览器内核升级、UI调整、甚至某个图片内容调整,都可能导致原来的RPA任务流程失败。虽然RPA领域也一直尝试新的手段或者AI方法(如OCR)来降低这种耦合性,增强适应能力,但收效甚微。

以常见的Web应用为例,为了模拟人类操作实现自动化,需要识别UI界面元素进而模拟鼠标点击、键盘输入等。方法包括:

  • 借助DOM解析/XPath选择器查找与定位元素

  • 借助UI的坐标点/屏幕区域定位

  • 借助于图像定位,比如查找图片中相同的按钮


无论哪种方法都不具备较好的自适应能力,在UI布局与元素发生变化时,很容易导致原RPA流程的不可用。

随着大模型,特别是多模态大模型(Large Multimodal Model)比如GPT-4-vision/Gemini-pro-vision等的出现,其表现出来的强大的视觉智能,给RPA/自动化测试领域带来了新的可能。

早先在微软长达166页的GPT-4V的论文中,介绍了利用GPT-4V实现计算机或智能手机的GUI交互与导航的实验:AI根据当前当前计算机屏幕,以及设定的目标任务(比如看一下今天的新闻)、能够进行的操作(比如鼠标点击与键盘输入),然后预测下一步的操作,最后能够成功地导航到具体的网页完成任务,参考下图。


该例子演示一个GPT-4V根据提示内容与看到的屏幕图片,自行完成操作步骤,并完成打印一份“麻婆豆腐菜谱”的任务。当然这里是一种操作可行性的验证,实际实现还需要较多的应用层工作,比如你需要不断把屏幕图像输入到AI,并根据AI的输出反馈到物理操作。


所以,一种可能的借助于多模态模型实现RPA操作导航的思想是:

借助LMM的视觉智能,自动识别与理解UI界面,定位操作元素并指导后续操作。

如果说以前的RPA只有手脚(借助浏览器自动化等技术进行模拟操作),只能按照人类固定指令顺序执行动作;那么多模态大模型可以给RPA安装上眼睛和大脑:能够看到人类看到的界面内容,并思考如何操作,甚至分析操作的结果以决定后续动作。流程设想如下:

这里的关键是借助多模态大模型的视觉理解能力来推理流程步骤中需要执行的动作,这需要让大模型能够“看见”当前的UI界面,所以我们需要把UI图片作为输入交给多模态大模型。为了让多模态模型能更好的理解UI界面,并且输出操作动作,我们需要对界面进行提示性的“标记”,形成类似这样的图片并交给模型进行理解:

有两种可能的标记方法:

  • 对Web页面,可以通过页面注入JS并执行来完成元素标记

  • 对GUI界面,需要首先截屏生成图片,然后借助工具进行标记,这里推荐一个微软的开源项目SoM(Set-of-Mark),一个专门用于给GPT-4V这样的多模态大模型生成图片视觉标记的工具。


借助这样的视觉提示标记,可以提高大模型识别UI元素的能力与正确性,并且能够输出精确的操作建议(需要操作的元素编号、坐标、动作甚至输入内容等),从而实现自适应的UI导航。

当然,受限于当前多模态大模型的能力,以及实际应用RPA操作的复杂性,特别是在企业应用场景中的领域性特征,通用的多模态大模型很可能难以胜任,针对企业/行业应用特点进行微调与训练的专用多模态模型或许会是一种方案。 这里只提出一种实验性的方法,后续还需要通过更多实例来做论证。

结束语

以上,我们初步探讨了生成式AI与RPA即机器人流程自动化技术相互融合与促进的三种可能的方向与场景。相信未来随着大模型(LLM/LMM)、AI Agent以及RPA技术的不断进化,更多的技术可能性与应用场景将会被进一步挖掘与发现,更加智能化的数字员工将会不断涌现,并在企业中完成更复杂更具挑战性的任务。



-  END  -

 报告下载 


佬观点分享
关于RPA、AI、企业数字化转型(点击文字即可阅读)
金智维-廖万里 艺赛旗- 唐琦松 | 壹沓科技-卞晓瑜 | 弘玑-高煜光 | 实在智能-孙林君达观数据-陈运文 | 达观数据-陈文彬 | 华为-杨永根 |  华为-杨波 | IBM-孙震容智-柴亚团 | 凡得科技- 海广跃 | 天行智能-张尧 来也科技 - 褚瑞    金智维-屈文浩 | 阿博茨-余宙 | 阿博茨-刘铁锋 | 英诺森-胡益、徐志宏云扩-刘春刚  | 云扩-刘林 | 容智-黄莹 |  微软-李永智 | 微软-缪玉峰中关村科金-周长安 | 百炼智能-冯是聪 | SAP - 陆巍德勤-杨玲玲 | 德勤-周麟 | 普华永道-庞胤杰 | 安永咨询-安武 | 中兴云-刘雅琼  
BV百度风投-方鑫 | 致同咨询-任子旭 | 兴业数金-梁一纲 | 毕马威-马金平 
建信金融- 陈文极 | 海通证券-任荣 | 美国Avantify-朱继武 | EdgeVerve全球总监Atul Profile 
行业知识交流分享,结识扩展人脉圈层公众号后台回复【RPA】或者【流程挖掘】可受邀加入相关的交流群



继续滑动看下一个
RPA全球生态
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存